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(54) OUTIL POUR LA MISE EN EVIDENCE AUTOMATIQUE D'UN NIVEAU DE DISTANCIATION DANS UN 
ENSEMBLE DE DONNEES TEXTUELLES. 

(§) Outil pour le traitement (f au moins une partie d'un en- 
semble de documents textuels stocks dans une base de 
donnees, caractense* en ce qu'il comporte des moyens pour 
determiner automatiquement dans au moins un document 
le nombre de propositions dans lesquelles le temps condi- 
tionnel hypothetique et le nombre de propositions dans les- 
quelles fe temps conditionnel present sans condition et 
employ^, et pour calculer un taux de distanciation qui est 
fonction du ou des nombres ainsl determines. 
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OUTIL POUR LA MISE EN EVIDENCE AUTOMATIQUE D'UN NIVEAU DE 
DISTANCIATION DANS UN ENSEMBLE DE DONNEES TEXTUELLES 

La pr§sente invention est relative a un outil pour le traitement d'un 
5 ensemble de donnees textuelles. 

Des outils pour la mise en oeuvre de traitements automatiques sur 
des donnees textuelles sont deja connus. 

10 Notamment, il a deja ete propose par la demanderesse dans sa 

demande de brevet WO99/05614 un outil permettant un suivi dynamique 
dans le temps de ^'information contenue dans les documents d'une base de 
donnees. Cet outil permet en particulier de mesurer a plusieurs instants 
successifs un certain nombre de parametres caracterisant les donnees 

15 textuelles contenues dans les documents et de mettre en evidence une 
Sventuelle Evolution anormale du contenu informatif de ceux-ci dans le 
temps. 

II a egalement ete propose par la demanderesse dans sa demande 
de brevet FR 00/11068 un procede de traitement apte a permettre une 
20 detection particulierement fiable de distorsions de la structure de 
Information contenue dans les documents d'une base de donnees qui 
Svolue dans le temps. Ce procede permet de mettre en 6vidence tr&s 
rapidement de telles distorsions, alors meme que celles-ci seraient 
difficilement detectables par une lecture humaine. 

25 

^invention a quant a elle pour but de mettre en evidence le niveau 
de distanciation dans un document, ceci afin de permettre de distinguer les 
textes dans lesquels le locuteur s'eloigne d'une affirmation directe et met 
une distance entre son opinion personnelle et le contenu de son discours. 
30 Le locuteur introduit le doute sur la situation reelle du sujet evoque. Cette 
distanciation s'effectue par Tusage de temps et de tournures 
conditionnelles. 
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Pour mettre en Evidence de fagon automatique un tel niveau de 
distanciation, Invention propose un outil pour le traitement d'au moins une 
partie d'un ensemble de documents textuels stockes dans une base de 
donnees, caracterise en ce qui! comporte des moyens pour determiner 
5 automatiquement dans au moins un document le nombre de propositions 
dans lesquelles le temps conditionnel hypoth&ique est employe et le 
nombre de propositions dans lesquelles le temps conditionnel present sans 
condition et employe, et pour calculer un taux de distanciation qui est 
fonction du ou des nombres ainsi determines. 

10 

D'autres caracteristiques et avantages de Invention ressortiront 
encore de Texemple qui va maintenant etre decrit Selon cet exemple, on 
acquiert un nombre important de documents constitues de donnees 
textuelles, par exemple en mettant en ceuvre une recherche au moyen d'un 
15 moteur de recherche sur Internet ou encore en utilisant des bases de 
donnees specifiques. 

Ces documents sont memorises dans une base de donnees, qui est 
par exemple mise a jour regulierement, de sorte que son contenu evolue 
20 dans le temps. 

L'outil met en oeuvre sur les documents de cette base de donnSes 
differents traitements, par exemple les traitements decrits dans les 
demandes de brevet de la demanderesse WO99/05614 et FR 00/1 1068. 

25 

II met §galement en ceuvre pour chaque document un traitement 
d'analyse syntaxique, qui s'inspire des publications de Gosselin 
(« Semantique de la temporality en fran9ais. », 1996 ; et « La valeur de 
I'imparfait et du conditionnel dans les systemes hypothetiques. », Annual 
30 Conference of the Linguistic Society of Belgium, Institut Libre Marie Haps 
(Brussels), 1997), et qui est le suivant. 

Ce traitement consiste en Incurrence a compter dans le document 
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- le nombre de propositions dans lesquelles le conditionnel 
present sans condition est employe ; 

- le nombre de propositions dans lesquelles le conditionnel 
5 hypothetique est employe. 

Par exemple, pour une implementation de I'outil sur des documents 
en anglais, I'outil determinera : 

10 - le nombre de propositions dans lesquelles le conditionnel present sans 
condition est employe en comptant le nombre de propositions qui 
contiennent « would » et dont la suite ne contient pas d'auxiliaire infinitif ni 
de participe passe ; 

15 - le nombre de propositions dans lesquelles le conditionnel hypothetique est 
employe en comptant le nombre de propositions subordonnees qui 
contiennent « if ». 

Avantageusement, I'outil ajoute egalement a cette somme: 

20 

- le nombre de phrases, 

- un parametre fonction de la date de parution du document. 

La somme obtenue est ensuite divisee par le nombre de phrases du 
25 document, de facon a disposer d'un resultat rapporte aux divisions 
naturelles du document que constituent les phrases. 

La somme ainsi obtenue constitue un paramStre qui quantifie le taux 
30 de distanciation par document et qui traduit par consequent un 
comportement linguistique du locuteur. II permet une mesure graduelle 
entre les textes et permet de situer d'rfferents textes, les uns par rapport aux 
autres. 
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L'outil met ensuite en oeuvre sur I'ensemble des documents traites 
une evaluation statistique : calcul du taux de distanciatlon moyen et d'un 
ecart type de taux de distanciation. 

Dans le cas ou le traitement se fait sur une fenetre temporelle 
glissante, on parte alors de taux de distanciation d'un flux de documents et 
de dispersion de taux de distanciation (ecart type sur moyenne). 

Les taux de distanciation moyens et les ecarts types peuvent etre 
compares a des seuils et classes dans une categorie de taux de 
distanciation selon le resultat de cette comparaison. 
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REVENDICATIONS 

1. Outil pour le traitement d'au moins une partie d'un ensemble de 
documents textuels stockes dans une base de donnees, caracterise en ce 

5 qu'il comporte des moyens pour determiner automatiquement dans au 
moins un document le nombre de propositions dans lesquelles le temps 
conditionnel hypothetique et le nombre de propositions dans lesquelles le 
temps conditionnel present sans condition et employe, et pour calculer un 
taux de distanciation qui est fonction du ou des nombres ainsi determines 

10 

2. Outil selon la revendication 1, caracterise en ce que pour calculer le taux 
de distanciation du document, il comporte des moyens pour sommer le ou 
les nombres ainsi determines. 

15 3. Outil selon la revendication 2, caracterise en ce que pour calculer le taux 
de distanciation, il comporte des moyens pour sommer le ou les nombres 
ainsi determines et pour y ajouter le nombre de phrases et/ou un parametre 
fonction de la date de parution du document. 

20 4. Outil selon Tune des revendications precedentes, caracterise en ce qu'il 
comporte des moyens pour determiner le nombre de phrases du document 
et pour calculer un taux de distanciation rapporte a ce nombre de phrases. 

5. Outil selon Tune des revendications precedentes, caracterise en ce qu'il 
25 comporte des moyens pour calculer la moyenne et/ou I'ecart type d'une 

pluralite de taux de distanciation calcules pour differents documents. 

6. Outil selon la revendication 5, caracterise en ce que sur la base de 
donnees evoluant dans le temps pour stacker de nouveaux documents, on 

30 selectionne dans la base de donnees a plusieurs instants successifs les 
documents correspondant a une fenetre temporelle que Ton fait glisser dans 
le temps et on determine des moyennes et des ecarts types de taux de 
distanciation pour ces differents instants. 

35 7. Outil selon la revendication 6, caracterise en ce qu f on compare une 
valeur moyenne et/ou un §cart type de taux de distanciation a une valeur 
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seuil et on detecte I'instant oD ladite valeur moyenne et/ou ledit ecart type 
franchissent ledit seuil. 



